
تمت تحديث الساعة 2:40 مساءً بتوقيت المحيط الهادئ: بعد ساعات من إصدار GPT-4.5، أزالت OpenAI سطرًا من ورقة بيضاء لنموذج الذكاء الاصطتناعي الذي يقول \"GPT-4.5 ليس نموذج ذكاء اصطناعي حديث\". ولا يتضمن الورقة البيضاء الجديدة لـ GPT-4.5 هذا السطر. يمكنك العثور على رابط إلى الورقة البيضاء القديمة هنا. يتبع النص الأصلي.
أعلنت OpenAI يوم الخميس أنها تطلق GPT-4.5، نموذج الذكاء الاصطتناعي المعروف سرا بـ أوريون. إن GPT-4.5 هو أكبر نموذج قد قامت بإطلاقه OpenAI حتى الآن، مدرب باستخدام قدرة حسابية وبيانات أكثر من أي من الإصدارات السابقة للشركة.
على الرغم من حجمه، تقول OpenAI في ورقة بيضاء أنها لا تعتبر GPT-4.5 نموذجًا حديثًا.
ستتمكن مشتركي ChatGPT Pro، خطة OpenAI بقيمة 200 دولار شهريًا، من الوصول إلى GPT-4.5 في ChatGPT اعتبارًا من يوم الخميس كجزء من معاينة البحث. سيتمكن المطورون الذين يستخدمون الطبقات المدفوعة من API OpenAI أيضًا من استخدام GPT-4.5 بدءًا من اليوم. أما بالنسبة للمستخدمين الآخرين لـ ChatGPT، يجب أن يحصل عملاء الخطة ChatGPT Plus و ChatGPT Team على النموذج في وقت ما الأسبوع المقبل، بحسب ما قاله متحدث من OpenAI لـ TechCrunch.
لقد احتفظت الصناعة بتنفسها المشترك من أجل Orion، الذي يعتبره البعض مؤشرًا على جدوى النهج التقليدي لتدريب الذكاء الاصطناعي. تم تطوير GPT-4.5 باستخدام نفس الأسلوب الأساسي - زيادة بشكل كبير في كمية القدرة الحسابية والبيانات خلال مرحلة \"التدريب الأولي\" المسماة \"التعلم بدون إشراف\" - الذي استخدمته OpenAI لتطوير GPT-4، GPT-3، GPT-2، و GPT-1.
في كل جيل من أجيال GPT قبل GPT-4.5، أدت التوسيعات إلى قفزات هائلة في الأداء عبر المجالات، بما في ذلك الرياضيات والكتابة والبرمجة. في الواقع، تقول OpenAI إن الحجم المتزايد لـ GPT-4.5 منحه \"معرفة أعمق للعالم\" و\"ذكاء عاطفي أعلى\". ومع ذلك، هناك علامات تدل على أن المكاسب من زيادة البيانات والحسابات بدأت في أن تتراجع. على بعض معايير الذكاء الاصطناعي، يأتي GPT-4.5 دون \"نماذج الاستدلال\" الحديثة من شركة DeepSeek الصينية، وAnthropic، وOpenAI نفسها.
كما يعترف OpenAI بأن GPT-4.5 مكلف جدًا للتشغيل، مما يجعلها تقول انها تقوم بتقييم ما إذا كانت ستواصل تقديم GPT-4.5 في واجهة برمجة التطبيقات الخاصة بها على المدى الطويل. للوصول إلى واجهة برمجة تطبيقات GPT-4.5، تقوم OpenAI بفرض رسوم على المطورين قيمتها 75 دولارًا لكل مليون رمز مدخل (حوالي 750،000 كلمة) و 150 دولارًا لكل مليون رمز مخرج. قارن ذلك بـ GPT-4o، الذي يكلف فقط 2.50 دولار لكل مليون رمز مدخل و 10 دولارات لكل مليون رمز مخرج.
\"نحن نشارك GPT‐4.5 كمعاينة بحث لفهم قواه وقيوده بشكل أفضل\"، قالت OpenAI في مدونة تم مشاركتها مع TechCrunch. \"نحن ما زلنا نستكشف ما يمكنها القيام به ونحن حريصون على رؤية كيف يستخدم الناس في طرق لم نتوقعها.\"
أداء متنوع
تؤكد OpenAI أن GPT-4.5 ليس مقصودًا أن يكون بديلاً جاهزًا لـ GPT-4o، بنرشور الشركة الذي يشغل معظم واجهة برمجة التطبيقات API وChatGPT الخاصة بها. بينما يدعم GPT-4.5 ميزات مثل تحميل الملفات والصور وأداة قلم ChatGPT، فإنه حاليًا يفتقر إلى قدرات مثل دعم وضع الصوت الثنائي الحقيقي لـ ChatGPT.
في الجانب الإيجابي، يعد GPT-4.5 أكثر أداءً من GPT-4o - والعديد من النماذج الأخرى أيضًا.
في مقياس الاختبار SimpleQA التابع لـ OpenAI، الذي يختبر النماذج الذكاء الاصطناعي على الأسئلة البسيطة والواقعية، يفوق GPT-4.5 GPT-4o ونماذج الاستدلال من OpenAI، o1 و o3-mini، من حيث الدقة. وفقًا لـ OpenAI، يهلوس GPT-4.5 بشكل أقل بكثير من معظم النماذج، الأمر الذي يعني في نظرية أنه يجب أن يكون أقل احتمالًا أن يخترع أشياء.
لم تدرج OpenAI نموذجها الذكاء الاصطناعي الأعلى أداءً، deep research، في SimpleQA. ويقول متحدث من OpenAI لـ TechCrunch إنه لم تقم بتقديم تقرير علني حول أداء deep research على هذا الاختبار وادعى أنه لا يُعتبر مقارنة ذات صلة. يجب أن يتم ملاحظة أن نموذج البحث العميق لشركة Perplexity، والذي يقوم بأداء مماثل على اختبارات أخرى لنماذج البحث العميق لـ OpenAI، يفوق GPT-4.5 في هذا الاختبار من حيث الدقة الواقعية.

في مجموعة من المشاكل البرمجية، معيار SWE-Bench Verified، تقارن GPT-4.5 تقريبًا في الأداء مع GPT-4o و o3-mini ولم يصل إلى أداء نموذج البحث العميق لـ OpenAI و Claude 3.7 Sonnet من Anthropic. في اختبار برمجة آخر، SWE-Lancer من OpenAI، الذي يقيس قدرة نموذج الذكاء الاصطناعي على تطوير ميزات برمجية كاملة، يفوق GPT-4.5 على GPT-4o و o3-mini ولكن لا يصل إلى البحث العميق.


لا يصل GPT-4.5 إلى أداء النماذج الرائدة في مجال الاستدلال الذكاء الاصطناعي مثل o3-mini و DeepSeek’s R1، و Claude 3.7 Sonnet (نموذج تقني) على معايير أكاديمية صعبة مثل AIME و GPQA. ولكن يتساوى GPT-4.5 أو يفوق النماذج غير الاستدلالية الرائدة على هذه الاختبارات نفسها، الأمر الذي يوحي بأن النموذج يؤدي بشكل جيد في مشاكل تتعلق بالرياضيات والعلوم.
تزعم OpenAI أيضًا أن GPT-4.5 أفضل نوعيًا من النماذج الأخرى في المجالات التي لا تتمكن المقاييس من التقاطها بشكل جيد، مثل القدرة على فهم نية الإنسان. يرد GPT-4.5 بطريقة أكثر دفئًا وطبيعية، ويؤدي بشكل جيد في المهام الإبداعية مثل الكتابة والتصميم.
في اختبار غير رسمي، طلبت OpenAI من GPT-4.5 ونموذجين آخرين، GPT-4o و o3-mini، تكوين حصان بشكل SVG، وهي صيغة لعرض الرسومات استنادًا إلى الصيغ الرياضية والكود. كان GPT-4.5 النموذج الوحيد الذي قام بإنشاء شيء يشبه حصانًا.

في اختبار آخر، طلبت OpenAI من GPT-4.5 والنموذجين الآخرين الرد على النص \"أنا أمر بأوقات صعبة بعد فشل الاختبار\". قام GPT-4o و o3-mini بتقديم معلومات مفيدة، لكن رد GPT-4.5 كان الأكثر ملاءمة اجتماعيًا.
\"[ن]نحن نتطلع للحصول على صورة أكثر اكتمالًا عن قدرات GPT-4.5 من خلال هذا الإصدار\"، كتبت OpenAI في المدونة، \"لأننا ندرك أن مؤشرات الأكاديمية لا تعكس دائمًا الفائدة في العالم الحقيقي.\"

تحديات قوانين التوسيع
ت